Особенностью HotBot являются очень широкие возможности задания целевых условий поиска. Как указно в обзоре PC Magazine: "...Ни один из других поисковых серверов не предлагает в своём интерфейсе такого количеста опций поиска, как HotBot". Можно объединить ключевые слова с помощью булевых операторов, ограничить поиск файлами определённого типа, сузить географию поиска отдельной страны, домена Интернета или даже отдельного узла Web. Одна из опций интерфейса HotBot помогает в нахождении документов, в котором упоминаются имена людей, состоящие из нескольких слов в любой последовательности (например, поиск по имени Sergey Golubev вернёт ссылки на документы, где это имя записано как Golubev, Sergey).
HotBot - один из лучших инструментов, если надо найти отбор специфичеких слов или фраз типа "1997 Coca-Cola Annual Report". Он также эффективен в поисках, которые основаны на детализированных запросах. Эксперименты особо отмечают лёгкий в работе интефейс HotBot с многочисленными раскрывающимися списками и переключателями.
Следует указать, что хотя HotBot позволяет находить документы, составленные на русском языке, практика показала, что этот сервер вряд ли можно отнести к эффективным системам поиска русскоязычных документов - количество русскоязычных документов, проиндексированных "пауками" HotBot, на пару порядков меньше, чем текстов на английском языке.
Сегодня Yahoo! содержит сведения о документах примерно в 25 000 категориях, и ежедневно в базу данных поступают сведения о нескольких тысячах новых документов. Интересно, что в соответствии с традициями "раннего" Yahoo!, база данных во многом пополняется за счёт добровольного участия многих тысяч пользователей, посылающих в адрес Web-мастера Yahoo! электронные письма с указанием сведений о своих WWW-страницах. Для того чтобы обработать такое количество информации, требуется наличие большого штата сотрудников и, соответственно, денежных средств для оплаты их труда. Поэтому, чтобы оставатся прибыльным предприятием, руководство Yahoo! активно привлекает рекламу на свои самые популярные страницы.
Многие специалисты признают, что ручная обработка информации является слабым местом Yahoo!, которое может позволить более "технологичным" поисковым серверам перехватить лидерство и признание пользователей Интернета. Однако они же соглашаются с тем, что Yahoo! - это прежде всего известное имя, Brand Name. А имея такое имя, можно заработать средства на реализацию дорогих технологий.
Одним из примеров проникновения высоких технологий в ручной Web-каталог является тесная интеграция Yahoo! и мошного Web-индекса AltaVista. Если по запросу пользователя не удаётся найти нужные документы в каталогах Yahoo!, на помощь приходит AltaVista, и на экран выводятся ссылки, найденные уже этим сервером.
В течение достаточно продолжительного (по меркам Интернета) времени Yahoo! остаётся самым популярным поисковым сервером Интернета, причём во многом благодаря особому духу, стилю, которым пронизан этот поисковый сервер (система). Пользователей Yahoo! ждут забавные сведения и шутки, появляющиеся на сервере в дни различных праздников (например, таких, как День Святого Валентина, покровителя всех влюблённых).
Узел Excite рассчитан на объектно-ориентированный и "понятийный" (concept) поиск по
ключевым словам. Понятийный поиск - это новая методология поиска, впервые реализованная
в Excite. Она подразумевает нахождение документов, содержащих термины, близкие к введённым
словам по смыслу. Примером понятийного поиска может быть ввод слов The Environment
(окружающая среда). В этом случае будут найдены документы, содержащие самые разные
сведения, касающиеся окружающей среды, а не только те из них, где это слово непосредственно
присутствует в текстах.
Полнотекстная индексная база Excite в середине 1998 года содержала сведения о более чем 50 млн. документах (http://corp.excite.com/News/press_releases/05261998major_evolution_in_search.html). Так же, как и AltaVista, Excite позволяет проводить поиск по телеконференциям UseNet, и общее число индексируемых телеконференций превышает 10 тысяч.
Найденные документы ранжируются по степени соответствия (relevancy) предмету поиска, и результаты с наивысшей степенью выводятся на экран первыми. Кроме того, можно задать вывод ссылок по названиям документов или по их местонахождению (по именам WWW-серверов, Sort by Site). Последний способ достаточно удачно позволяет показать, сколько найденных документов хранится на конкретном сервере. Такое часто бывает полезно, если по некоторой теме найдено множество документов. Опция поиска "More like this" позволяет найти дополнительные документы, сходные по тематике с текущим. При этом в ключевых словах поддерживается различие заглавных и строчных букв. отдельные сервисы, предоставляемые Excite, - это разделы City.Net, посвящённые страницам, рассказывающим о городах мира, и сетевой журнал Excite Live! Предполагается, что эти разделы разовьются в отдельные Web-узлы.
Excite принадлежит к классу поисковых систем "гибридного" типа. Кроме поиска по индексной базе данных, здесь представлены специальные обзоры, подготовленные специалистами Excite. Аналитик журнала PC Magazine отмечает, что Excite показывает высокие результаты в случае так называемого простого поиска (Simple Search), когда выводится всего одно ключевое слово. Web-мастера найдут здесь бесплатное прграммное обеспечение Excite for Web Servers 1.x для организации внутреннего поиска по своим серверам (http://www.excite.com/Info/linking4.html).
Правда очень хитро, как пишет журнал "ZD Interactive Week", добывает информацию этот поисковый сервер - Excite. На своих страницах он предлагал всем администраторам Web-серверов бесплатную копию программного обеспечения поисковой системы для организации внутреннего поиска по их WWW-серверу. Многие администраторы с удовольствием пользуются такой возможностью, поскольку по правилам хорошего тона каждый "солидный" WWW-сервер должен иметь средства внутреннего поиска документов. Учитывая высокую стоимость покупки подобного ПО или достаточно большое время, нужное для разработки своего внутреннего поискового сервиса, это является хорошим подарком системным админисраторам WWW.
Однако в случае с этим сервером - Excite, у этого подарка имеется и оборотная сторона (правда, безвредна для WWW-сервера). Обеспечивая внутренний поиск по серверу, эти копии программного обеспечения (ПО) Excite одновременно "перекачивают" сведения о документах серверов, на которых они установлены, на "материнский" глобальный поисковый сервер, остроумно решая таким образом проблему поиска и обновления информации.
В результате поиска в качестве выходных данных AltaVista возвращает URL, название и первые несколько строк документа. Это даёт пользователю дополнительную возможность оценки степени важности найденного документа перед его загрузкой на свой компьютер. Кроме режима простого поиска (simple search) возможен расширенный поиск (advanced search), включающий булевы операторы (AND, OR, NOT) и задание критериев ранжирования документов. Например, при использовании расширенного поиска можно узнать, что первыми в списке результатов поиска следует привести документы, в которых, наряду с заданными ключевыми словами, наиболее часто встречаются ещё и другие опрелелённые слова. Как отмечает журнал PC Magazine, преимущество AltaVista перед другими поисковыми серверами проявляется именно в случае проведения "расширенного поиска" с большим числом ограничений.
Огромная база данных AltaVista позволяет находить "редкие" документы, а возможности расширенного поиска помогают выделить нужные документы, когда простой поиск даёт слишком большой список ссылок. В некоторых случаях результат простого поиска может быть огромен: например, ввод ключевого слова "Netscape" привёл бы к тому, что были бы обнаружены ссылки на миллионы документов.
Для российских пользователей кроме того факта, что AltaVista прекрасно выполняет поиск русскоязычных документов, важно также и то, что этот сервис имеет высокую степень доступности благодаря отличным каналам, связывающим крупных российских провайдеров и EUnet. Поэтому не случайно AltaVista находится в списке поисковых систем, называемых прямо в меню Internet Explorer 4-ой и 5-ой версиях наравне с такими Web-индексами, как Rambler, Яndex и Апорт!
Наверняка, когда Вам показалось, что возможности выбранного Вами сервера больше не позволяют найти какие-либо дополнительные документы, Вы решили попробовать поискать документы с помощью другого сервера. Когда и его возможности будут исчерпаны, настанет пора перейти к следующему поисковому серверу и т. д. Естественно, что подобная методика ведёт к значительным затратам времени. Стремление облегчить решение рассматриваемой задачи дало толчок развитию систем параллельного поиска, когда можно одновременно обратиться к целому ряду поисковых машин с одной страницы Вашего броузера (просмотровщика Web-страниц). Подобный сервис получил название Meta-Search Engines (Метапоисковые системы), и, как всегда бывает, среди этой категории поискового сервиса есть свои лидеры. Типичными представителями таких же сервисов являются узлы SuperSearch Service (http://www.robtex.com/search/query.htm) и MetaSearch (http://metasearch.com).
Естественно, что по качеству сортировки документов Web-каталоги намного превосходят Web-индексы (заметно проигрывая им по количеству просмотренных документов), - ведь никакие компьютеры не могут пока сравнятся с людьми в анализе тематики найденных документов. Следует отметить, что как правило, Web-каталоги имеют внутренний поисковый механизм, который направляет Вас в нужный раздел, если вы не очень хорошо представляете, где конкретно искать документы по интересующей Вас теме. Также представителем Web-каталога является уже упомянутый мною сервер Yahoo! (http://www.yahoo.com) (прим. Правда в этом случае - Yahoo! и в случае других Web-каталогов пользователи этих поисковых серверов часто выступают добровольными поставщиками основной массы информации, присылая ссылки на документы с помощью обычной электрнной почты (E-mail). Здесь на благо поисковых систем использовано такое качество людей, как стремление к известности: кто кажется от того, чтобы бесплатно разместить в Web-каталогах информацию о своих WWW-страницах?)
Правда, если же использовать основную страницу поиска AltaVista (http://www.altavista.com), то система найдёт только те документы, где искомое слово стоит именно в том виде, как указано во введённом запросе, и никак иначе.
Первая часть системы - робот, который может полчать адреса документов через proxy-сервер
или непосредственно с указанного узла, - индексирует содержание документа и помещает
результаты в базу данных. Робот может рекурсивно сканировать определённые хосты. Он
поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT
.
Втоой частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15 000 сайтов (имён DNS). Поисковая система Rambler поддерживает различные логические операции\ между словами, а также усечение слов с помощью метасимволов. Пользователь может определиьь выходной формат документов, максимальное количество результатов поиска и т. д.
Дополнительную информацию о системе Rambler можно прочесть на сервере Петербургского отделения Института "Открытое общество" (Фонд Сороса) в документе по адресу http://www.spb.osi.ru/IC/DISTANT/Rambler.doc.
Дополнительную информацию о системе Апорт! можно прочесть на сервере Петербургского отделения Института "Открытое общество" (Фонд Сороса) в документе по адресу http://www.spb.osi.ru/IC/DISTANT/Aport.doc.
Как указывается в документена сервере, продукты Яndex предназначены для работы с большими объёмами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страниц и страниц Интернета. В рамках проекта Яndex разрабатываются следующие поисковые системы:
Яndex.Web Поисковый механизм дла русскоязычной части Интернета Яndex.Site Функция, обеспечивающая удобный и быстрый поиск на Вашем Web-сервере Яndex.Dict Подключение модуля морфологии к существующим поисковым средствам Яndex.CD Индексация и поиск по статическому набору документов Яndex.Lib Библиотека для подключения к существующим базам и системам АРГОНАВТ Гипертекстовая оболочка с развитым лексическим и атрибутным поиском
Поисковая машина Яndex была запущена в эксплуатацию сравнительно недавно - в конце сентября 1997 г., область поиска системы - русскоязычная часть Интернета. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:
Яndex.Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.Dict, Яndex.CD, Яndex.Lib).
Дополнительную информацию о системе Яndex можно прочесть на сервере Петербургского отделения Института "Открытое Общество" (Фонд Сороса) в документе по адресу http://www.spb.osi.ru/IC/DISTANT/Yandex.doc.
Если углубляться в историю проекта Яndex, то впервые эта технология была применена для фиксированного объёма неизменяемых текстов - в справочнике "Международная классификация изобретений" и в "Библейском компьютерном справочнике". Для работы с внуттренней структурой документов был создан язык "Ястреб", с помощью которого поля могут быть описаны внешним образом, что избавляет от необходимости размечать каждый документ. В целях создания больших текстовых информационных систем на CD-ROM в настоящее время развернут проект АРГОНАВТ. В этот проект включён набор разработок, обеспечивающих поддержку развитых словарных, гипертекстовых и других навигационных возможностей.
Работа Яndex основана на том что система просматривает все указанные тексты, приводит каждое русское слово к нормальной форме (для существительных это - именительный падеж единственного числа, для глаголов - неопределённая форма и т. д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти - идёшь - шёл; ребёнок - дети; окно - окон; отзывать - отозвали.
При запросе на поиск текстов, включающих заданные слова, каждое слово из запроса также автоматически приводится к нормальной форме. благодаря сохранению подробного адреса, в ответе на запрос можно не только выдавать список найденных документов, но и показать найденные слова внутри документа. Реализован развитый поисковый интерфейс, который позволяет помимо стандартных логических операторов задавать поиск по близости, указывая расстояние между словами в тексте, а также требовать, чтобы запршенные слова были найдены в пределах одного абзаца, что уменьшает количество документов в результате запроса.
Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость индексации - 1-2 Мб/мин. Такая технология даёт возможность почти полного снятия омонимии на этапе индексации.
Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования и механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имён собственных.
Работу морфологии Яndex можно использовать не только на самом поисковом сервере Яndex, но и на примере русского поиска с помощью системы AltaVista (http://www.comptek.ru/alta.html). Как известно, слова в AltaVista проиндексированы просто как последовательность символов, что заставляет пользователя при поиске специально думять о том, как русские слова изменяются при склонениях и спряжениях. При запросе же через Яndex в запрос системы автоматически подставляются все допустимые формы требуемых слов.